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【摘要 】 背景 ”冠状 动脉 粥 样 便 化 性 心脏 病 ( Coronary atherosclerotic 
是 全 球 重要 的 死亡 原因 之 一 。 目 前 关于 和 冠 心病 风险 评估 的 研究 在 逐年 增长 。 


heart disease, CHD) ( 以 下 简称 冠 心病 ) 
然而 ， 在 这 些 研 究 中 常 忽略 了 数据 不 平衡 


的 问题 ， 而 解决 该 问题 对 于 提高 分 类 算法 中 识别 冠 心病 风险 的 准确 性 至 关 重 要 。 目 的 “探索 冠 心病 的 影响 因素 ， 通 过 


使 用 2 种 平衡 数据 的 方法 ， 基 于 5 种 算法 建立 冠 心病 风险 相关 的 预测 模型 ， 


比较 这 5 种 模型 对 冠 心病 风险 的 预测 价值 。 


方法 ”基于 2021 年 美国 国家 行为 风险 因素 监测 系统 ( Behavioral Risk Factor Surveillance System，BRFSS ) 横断 面 调 查 
数据 筛选 出 112 606 位 研究 对 象 的 健康 相关 风险 行为 、 慢 性 健康 状况 等 24 个 变量 信息 ， 结 局 指标 为 自我 报告 是 否 患 有 
冠 心病 并 据 此 分 为 冠 心病 组 和 非 冠 心病 组 。 通 过 进行 单 因 素 分 析 和 逐步 Logistic 回归 分 析 探 索 冠 心病 发 生 的 影响 因素 
并 筛选 出 纳入 预测 模型 的 变量 。 随 机 抽取 112 606 位 受 访 者 的 10% (共计 11 261 名 ) ， 以 8: 2 的 比例 随机 划分 为 训 
练 与 测试 的 数据 集 ， 采 用 随机 过 采样 ( Random oversampling ) 和 合成 少数 过 采样 技术 ( Synthetic Minority Over-sampling 


Technique, SMOTE ) 两 种 过 采样 ( Over-sampling ) 的 方法 处 理 不 平衡 数据 ， 


基于 上 最 邻近 算法 (K-Nearest Neighbor, 


KNN ) Logistic 回归 、 支持 向 量 机 ( Support Vector Machine, SVM ) , 决策 树 和 XGBoost 算法 分 别 建立 冠 心病 预测 模 


型 。 结 果 两 组 年 龄 、 性 别 、BMI、 种 族 、 婚 姻 状 态 、 教 育 水 平 、 收 入 水 平 、 


是 否 被 告知 患 高 血压 、 是 否 被 告知 患处 


于 高 血压 前 期 、 是 否 被 告知 患 妊 娠 高 血压 、 现 在 是 否 在 服用 高 血压 药物 、 是 否 被 告知 患 有 高 血脂 、 是 否 被 告知 患 有 糖 


尿 病 、 抽 烟 情 况 、 过 去 30 d 内 是 否 至 少 喝 过 1 次 酒 、 是 否 为 重度 饮酒 者 、 是 否 为 柄 酒 者 、 过 去 30 d 内 是 否 有 体育 锻炼 、 


心理 健康 状况 以 及 自我 健康 评价 比较 ， 差 异 有 统计 学 意义 ( P<0.05 ) 。 逐 步 


Logistic 回归 分 析 结 果 显 示 : 年 龄 、 性 别 、 


BMI 水 平 、 种 族 、 教 育 水 平 、 收 入 水 平 、 是 否 被 告知 患 高 血压 、 是 否 被 告知 患处 于 高 血压 前 期 、 是 否 被 告知 患 媳 娠 高 


衡 数据 的 总 体 分 类 精度 分 别 为 59.2% 、67.4% 、66.2% 、69.2% 和 85.9%; A 


血压 、 现 在 是 否 在 服用 高 血压 药物 、 是 否 被 告知 患 有 高 血脂 、 是 否 被 告知 患 有 糖尿 病 、 抽 烟 情 况 、 过 去 30 天 内 是 否 
至 少 喝 过 一 次 酒 、 是 否 为 重度 饮酒 者 、 是 否 为 醒酒 者 以 及 自我 健康 评价 为 冠 心病 的 影响 因素 〈P<0.05 ) 。 风 险 模 型 构 
建 的 分 析 结 果 显示 : k 最 邻近 算法 、Logistic PIJA, LREN, RRRA XGBoost 采用 合成 少数 过 采样 技术 处 理 不 平 


回 率 分 别 为 75.2%、71.4%、70.5%、62.9% 


和 34.8%; 精确 度 分 别 为 15.4%、18.2%、17.5%、17.6% FI 28.7%; F 值 分 别 为 0.256、0.290、0.280、0.275 和 0.315; 


AUC 分 别 为 0.80、0.78、0.72、0.72 和 0.82; 采用 随机 过 采样 处 理 不 平衡 数据 的 总 体 分 类 精度 分 别 为 62.5%、68.5%、 
69.0%、60.2% 和 70.1%; 召回 率 分 别 为 70.0%、69.5%、71.9%、69.0% 和 67.6%; 精确 度 分 别 为 15.896, 18.496, 
19.1%、14.8% 和 19.0% F [E43 9129 0.258 ,0.291,0.302,0.244 和 0.297; 受 试 者 工作 特征 曲线 下 面积 分 别 为 0.80、0.77、0.72、 
0.72 和 0.83。 结 论 本 研究 不 仅 确认 了 已 知 冠 心 病 的 影响 因素 ， 还 发 现 了 自我 健康 评价 水 平 、 收 入 水 平和 教育 水 平 对 


j= 


佳 荐 在 冠 心病 风险 预测 模型 中 ， 结 合 使 用 数据 平衡 后 的 XGBoost 和 逐步 Logi 


冠 心病 具有 潜在 影响 。 在 使 用 2 种 数据 平衡 方法 后 ，5 种 算法 的 性 能 显著 提高 。 其 中 XGBoost 模型 表现 最 佳 ， 可 作为 
未 来 优化 冠 心 病 预 测 模型 的 参考 。 此 外 ， 鉴 于 XGBoost 模 型 的 优异 性 能 以 及 逐步 Logistic 回归 的 操作 便捷 和 可 解释 性 ， 


stic 回归 分 析 。 
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[ Abstract ] 


worldwide, and research on risk assessment for CHD has been growing annually. However, the issue of data imbalance in these 


Background Coronary atherosclerotic heart disease ( CHD ) is one of the leading causes of mortality 


studies is often overlooked, despite its crucial role in enhancing the accuracy of CHD risk identification within classification 
algorithms. Objective To investigate the factors influencing CHD and to establish predictive models for CHD risk using two data 
balancing methods based on five algorithms, comparing the predictive value of these models for CHD risk. Methods Utilizing 
cross-sectional survey data from the 2021 Behavioral Risk Factor Surveillance System ( BRFSS ) in the United States, a cohort 
of 112, 606 participants was identified, featuring 24 variables related to risk behaviors and health status, with self-reported 
coronary heart disease. ( CHD ) as the outcome measure. Factors influencing the incidence of CHD were explored through 
univariate analysis and stepwise logistic regression to select pertinent variables for inclusion in the predictive model. A random 
sample comprising 10% of the participants ( 11, 261 individuals ) was drawn and then randomly divided into training and testing 
datasets at an 8: 2 ratio. To address data imbalance, two over-sampling techniques were employed: random oversampling and 
the Synthetic Minority Over-sampling Technique ( SMOTE ) . Based on these methods, CHD predictive models were constructed 
using five different algorithms: K-Nearest Neighbors ( KNN ) , Logistic Regression, Support Vector Machine (SVM) , 
Decision Tree, and XGBoost. Results Univariate analysis revealed significant differences ( P«0.05 ) between the CHD and 
non-CHD groups across all input variables except for rental housing and being informed of prediabetic status. Stepwise logistic 
regression identified age, gender, BMI, ethnicity, education level, income level, being informed of hypertension, being 
informed of prehypertension, being informed of pregnancy-induced hypertension, current use of antihypertensive medication, 
being informed of hyperlipidemia, being informed of diabetes, smoking status, alcohol consumption within the last 30 days, 
heavy drinking status, and self-assessed health as factors influencing CHD. The performance of risk models using SMOTE showed 
overall classification accuracies of 59.206, 67.496, 66.296, 69.296, and 85.996; recall rates of 75.296, 71.496, 70.596, 
62.996, and 34.896; precision of 15.496, 18.296, 17.596, 17.696, and 28.796; F-values of 0.256, 0.290, 0.280, 0.275, 
and 0.315; and AUC values of 0.80, 0.78, 0.72, 0.72, and 0.82, respectively. Using random oversampling, the models 
achieved classification accuracies of 62.596, 68.596, 69.096, 60.296, and 70.196; recall rates of 70.096, 69.596, 71.996, 
69.096, and 67.696; precision of 15.896, 18.496, 19.196, 14.896, and 19.096; F-values of 0.258, 0.291, 0.302, 0.244, 
and 0.297; and AUC values of 0.80, 0.77, 0.72, 0.72, and 0.83, respectively. Conclusion This study not only confirmed 
known factors affecting CHD but also identified potential impacts of self-assessed health level, income level, and education level 
on CHD. The performance of the five algorithms was significantly enhanced after employing two data balancing methods. Among 
them, the XGBoost model exhibited superior performance and can be referenced for future optimization of CHD prediction models. 
Additionally, considering the excellent performance of the XGBoost model and the convenience and interpretability of stepwise 
logistic regression, a combined use of these approaches after data balancing is recommended in CHD risk prediction models. 
[Key words] Coronary Disease; Machine Learning; Risk prediction model; K-nearest neighbor; Support vector 


machine; Decision tree; Logistic regression; XGBoost 


冠状 动脉 粥 样 硬化 性 心脏 病 又 称 冠 心 病 ， 居 全 球 死 
亡 原 因 之 首 。2019 年 ， 全 球 冠 心 病 患者 约 有 1.97 亿 ， 
因 冠 心病 死亡 人 数 约 914 万 。 中 国正 面临 人 口 老 龄 化 和 


病 引 发 的 经 济 负担 增加 了 82% , 年 均 达到 1.82 亿美 元 1。 
然而 ， 从 健康 状态 转变 为 冠 心病 常 通 常 历时 数 十 年 ,在 
此 期 间 有 充足 的 机 会 采取 有 效 措施 进行 干预 ， 因 此 ， 建 


T 


心 脑 血 管 疾病 危险 因素 增多 的 双重 压力 ， 致 使 这 类 疾病 
的 发 病 率 与 患 病 率 持续 增长 … 。 据 统计 ， 目 前 冠 心病 
患者 已 达 1 139 万 例 ' "1 ， 死 亡 风 险 居 高 不 下 。 在 过 去 
三 十 年 间 ， 全 球 增加 的 冠 心病 死亡 病例 中 ，38.2% 来 自 
PED 。 与 此 同时 ， 高 发 病 率 和 高 死亡 率 伴随 的 还 有 
沉重 的 经 济 负担 : 从 1990 年 至 2019 年 间 ， 全 球 因 冠 心 


立 冠 心病 风险 预测 模型 可 以 尽早 发 现 患 病 高 爷 人 群 ， 并 
针对 其 发 病 风险 进行 个 性 化 干预 ， 从 而 预防 冠 心 病 的 发 
^E, 
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目前 冠 心病 的 早期 风险 评 佑 研究 在 逐年 增长 ， 国 际 
上 比较 成 熟 的 心血 管 疾病 风险 预测 模型 包括 弗 雷 明 汉 风 
险 评分 (FRS ) “ 、 汇 总 队列 方程 以 及 欧洲 冠 心病 
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风险 评分 系统 '“ 等 ， 但 这 些 模型 开发 时 间 较 早 ， 且 随 
着 社会 经 济 发 展 冠 心 病 的 影响 因素 也 在 发 生变 化 , 此 外 ， 
这 些 模 型 主要 是 基于 特定 地 区 的 研究 ， 所 履 盖 的 区 域 较 
"ds 

近年 来 ， 随 着 医疗 数据 的 深入 挖掘 ， 越 来 越 多 的 机 
器 学 习 算 法 在 冠 心 病人 群 中 开发 、 验 证 '“”。 然 而 ， 
大 多 数 研究 仅 采 用 了 逻辑 回归 算法 “”。 此 外 ,许多 
研究 常 忽视 了 数据 分 布 不 平衡 的 问题 '""i ， 导 致 采用 
整体 分 类 准确 性 为 目标 的 机 器 学 习 算 法 在 训练 过 程 中 忽 
视 少 数 类 ， 使 其 性 能 不 佳 ' ”1 ， 而 采用 过 采样 方法 进行 
样本 重 构 是 提高 模型 性 能 的 关键 。 此 外 ， 一 些 研究 显示 
部 分 分 类 算法 在 识别 风险 时 准确 性 较 差 ， 且 这 些 人 研究 主 
要 集中 于 心血 管 疾病 的 预测 “; ， 对 于 更 为 细 分 的 冠 心 
病 领 域 研究 较 少 ， 考 虑 到 冠 心病 因 其 因果 复杂 性 ， 探 索 
其 危险 因素 十 分 必要 。 为 了 解决 上 述 研究 中 数据 集 不 平 
衡 性 问题 并 探索 冠 心病 的 更 多 潜在 影响 因素 ， 本 研究 使 
FH 2021 年 美国 行为 风险 因素 监测 系统 (Behavioral Risk 
Factor Surveillance System, BRFSS ) 的 大 规模 人 和 群 数据， 
通过 采用 2 种 过 采样 方法 平衡 数据 ， 基 于 最 邻近 算 
法 (KNN ) 、 文 持 向 量 机 (SVM) 、 决 策 树 、Logistic 
回归 和 XGBoost， 构 建 冠 心病 的 预测 模型 并 通过 混淆 矩 
阵 和 受 试 者 工作 特征 (Receiver operating characteristic 
curve, ROC ) 曲线 确定 最 优 模型 。 
1 资料 与 方法 
1.1 数据 来 源 

数据 集 是 从 2021 年 美国 BRFSS 横断 面 调查 数据 中 
获取 9! , BRFSS 是 美国 首要 的 健康 相关 电话 调查 系统 ， 
主要 收集 有 关 美 国 居 民 健 康 相关 风险 行为 、 慢 性 健康 状 
ne. 
1.23 研究 对 象 

本 研究 选取 对 象 为 2021 年 美国 BRFSS 的 112 606 
位 受 访 者 。 排 除 标 准 : (1) 小 于 45 岁 ; (2) 本 人 研究 
的 24 个 变量 有 信息 缺失 的 受 访 者 。 采 用 随机 抽样 的 方 
式 ， 从 112 606 名 受 访 者 中 抽取 了 1096 的 样本 ， 即 11 
261 名 ， 以 此 作为 研究 的 代表 性 训练 和 测试 集 。 在 样本 
抽取 过 程 中 ， 设 定 固定 随机 种 子 为 42， 以 确保 抽样 的 
可 复制 性 。 
13 变量 选择 

以 受 访 者 是 否 被 告知 患 有 冠 心病 为 因 变 量 ( 输出 变 
量 ) ， 并 以 此 为 根据 分 为 冠 心病 组 和 非 冠 心病 组 。 通 过 
查阅 冠 心病 相关 危险 因素 的 相关 文献 ， 选 择 23 个 自 变 
E (输入 变量 ) ， 包 括 年 龄 、 性 别 、BMI、 种 族 、 婚 姻 
状态 、 教 育 水 平 、 收 入 水 平 、 家 里 有 几 个 孩子 、 是 否 拥 
有 或 租用 房屋 、 抽 烟 情 况 、 过 去 30 d 内 是 否 至 少 喝 过 1 
次 酒 、 是 否 为 重度 饮酒 者 、 是 否 为 柄 酒 者 、 自 我 健康 评 
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级 、 心 理 健 康 状况 、 过 去 30 d 内 是 否 有 体育 锻炼 、 是 
否 被 告知 患 高 血压 、 是 否 被 告知 患 妊娠 高 血压 、 是 否 被 
告知 患处 于 高 血压 前 期 、 现 在 是 否 在 服用 高 血压 药物 、 
是 否 被 告知 患 有 高 血脂 、 是 否 被 告知 患 有 糖尿 病 和 是 否 
被 告 处 于 糖尿 病 前 期 ， 详 见 表 1。 
14 统计 学 方法 

使 用 R 4.1.3 和 Python 3.9.13 软件 完成 所 有 的 数据 
统计 分 析 ， 计 量 资料 采用 〈z+s ) 表示 ， 计 数 资料 采用 
相对 数 表 示 。 通 过 单 因 素 显 著 性 分 析 将 删除 P>0.01 的 
变量 ， 此 外 ， 采 用 逐步 Logistic 回归 分 析 确 定 最 终 纳 入 
预测 模型 的 变量 ， 每 个 变量 选择 一 个 类 别 作为 对 照 ， 
并 计算 其 他 类 别 的 OR 值 和 95% 置信 区 间 (C1) 。 此 
外 ， 由 于 受 试 者 中 冠 心病 组 占 比 较 低 约 为 9.35%， 属 于 
非 平衡 数据 ， 为 解决 数据 集 不 平衡 的 问题 ， 本 研究 分 别 
通过 随机 过 采样 ( Random oversampling ) 和 合成 少数 过 
采样 技术 ( Synthetic Minority Over-sampling Technique, 
SMOTE ) 处 理 训练 集 ， 其 中 随机 过 采样 技术 是 解决 数 
据 集 类 别 不 平衡 问题 的 一 种 基本 方法 ， 主 要 通过 复制 少 
数 类 样本 以 平衡 类 别 分 布 。 而 少数 类 样本 合成 过 采样 
技术 (SMOTE ) Hi CHAWLA 等 ” 于 2002 年 提出 ， 该 
技术 通过 在 位 置 相近 的 少数 类 样本 间 进 行 插值 生成 新 样 
本 点 ， 以 此 来 实现 数据 的 平衡 ， 改 善 模型 对 少数 类 别 
的 预测 能 力 。 在 2 种 采样 方法 处 理 后 的 训练 集中 利用 得 
选 出 的 变量 选择 k 最 邻近 算法 、 支 持 向 量 机 、 决 策 树 、 
Logistic [E] 归 和 XGBoost 进行 建 模 ， 各 模型 训练 集 和 测 
试 集 按 8: 2 比例 ，9 009 例 样 本 用 于 训练 ，2 252 例 样 
本 用 于 预测 。 在 测试 集中 采用 混淆 和 矩阵 和 受 试 者 工作 特 
ÎE ( ROC) 曲线 对 模型 进行 评价 ,所 有 检验 为 双 侧 检验 ， 
检验 水 准 o =0.05。 


2 结果 


2. 两 组 基本 特征 比较 

两 组 年 龄 、 性 别 、BMI、 种 族 、 婚 姻 状态 、 教 育 水 平 、 
收入 水 平 、 是 否 被 告知 患 高 血压 、 是 否 被 告知 患处 于 高 
血压 前 期 、 是 否 被 告知 患 妊娠 高 血压 、 现 在 是 否 在 服用 
高 血压 药物 、 是 否 被 告知 患 有 高 血脂 、 是 否 被 告知 患 有 
糖尿 病 、 抽 烟 情 况 、 过 去 30 d 内 是 否 至 少 喝 过 1 次 酒 、 
是 否 为 重度 饮酒 者 、 是 否 为 醒酒 者 、 过 去 30 d 内 是 否 
有 体育 锻炼 、 心 理 健康 状况 以 及 自我 健康 评价 比较 ， 差 
异 有 统计 学 意义 ( P<0.05 ) ; 两 组 是 否 租房 以 及 是 否 被 
告知 处 于 糖尿 病 前 期 比较 , 差异 无 统计 学 意义 ( P>0.05 ), 
见 表 2。 
2.2 Logistic 回归 分 析 

将 单 因素 分 析 中 P<0.01 的 21 个 变量 纳入 逐步 
Logistic 回归 模型 中 进行 变量 租 选 ， 结 果 显 示 ， 年 龄 、 
性 别 、BMI 水平 、 种 族 、 教 育 水 平 、 收 入 水 平 、 是 否 被 
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表 1 变量 信息 及 其 赋值 
Table1 Variables information and their assignments 
变量 英文 问题 中 文 问题 赋值 
年 龄 What is your age? 您 的 年 龄 是 多 少 ? 45-54 9 «1, 55-642 22, 2 652 23 
种 族 Which one or more of the following would you say is 您 属于 以 下 哪 一 个 或 多 个 种 族 ? BA zl, A 22, WIN -3, EEIIRAE A -4, 
your race? 拉丁 育 =5， 其 他 =6 
性 别 Are you male or female? 您 的 性 别 是 男性 还 是 女性 ? 男 =1, 女 =2 
婚姻 状态 Aer you married? 您 已 婚 吗 ? 未 婚 =1, 已 婚 =2 
教育 水 平 What is the highest grade or year of school 您 完成 的 最 高 学 历 是 ? 初中 及 以 下 =1， 高 中 =2， 上 过 大 学 或 技术 学 校 
you completed? ( 没 毕业 ) =3， 大 学 或 技术 学 校 毕 业 =4 
收入 水 平 Ts your annual household income from all sources? 您 全 家 每 年 从 所 有 来 源 获得 的 收入 <15 000 美 元 =1， 三 15000 3576 H. «25 000 美元 =2， 
是 多 少 ? > 25 000 美元 且 <35 000 美 元 =3，> 35 000 美元 且 
<50 000 美元 <4，>> 50000 美元 且 «100 000 美元 =5， 
= 100000 美元 且 <200 000 JE -6, = 2000003 
家 里 有 几 个 孩子 How many children less than 18 years of age live in 您 家 里 有 多 少 未 满 18 岁 的 孩子 ? 0 个 =1, 14 22, 24 23, 34, m4 25 
your household? 
是 否 租房 Do you own or rent your home? 您 的 住房 是 自 有 还 是 租赁 ? CEI S| 
是 否 被 告 入 Have you ever been told by a doctor, nurse, orother 医生 、 护 十 或 其 他 健康 专业 人 员 是 否 曾 否 =0, Æ =l 
患 高 血压 health professional that you have high blood pressure? 告诉 您 ， 您 有 高 血压 ? 
ERIN Have you ever been told by a doctor, nurse, 医生 、 护 士 或 其 他 健康 专业 人 员 是 否 曾 1-0, Eal 
患 妊 娠 高 血压 or other health professional that you have told only 告诉 您 ， 您 只 在 怀孕 期 间 有 高 血压 ? 
during pregnancy ? 
是 否 被 告知 患 Have you ever been told by a doctor, nurse, or other 医生 、 护 十 或 其 他 健康 专业 人 员 是 否 曾 否 =0, Æ =l 
处 于 高 血压 前 期 health professional that you have told borderline high 告诉 您 ， 您 的 血压 处 于 边缘 高 值 或 前 高 
or prehypertensive or elevated blood pressure? ERA? 
现在 是 否 在 服 Are you currently taking prescription medicine for 您 目前 是 否 正在 服用 处 方药 物 控制 否 =0, 是 =] 
高 血压 药物 your high blood pressure? 高 血压 ? 
是 否 被 告知 患 Have you ever been told by a doctor, nurse or other 医生 、 护 士 或 其 他 健康 专业 人 员 是 否 fi -0, zl 
有 高 血脂 health professional that your cholesterol is high? 告诉 您 ， 您 的 胆固醇 水 平 高 ? 
是 否 被 告知 患 ( Ever told ) (you had ) diabetes? 医生 、 护 十 或 其 他 健康 专业 人 员 是 否 兽 否 =0, 是 =l 
有 糖尿 病 告诉 您 ， 您 串 有 糖尿 病 ? 
是 否 被 告知 患 ( Ever told ) (you had ) prediabetes or 医生 、 护 士 或 其 他 健康 专业 人 员 是 否 曾 告 否 =0, 是 =1 
处 于 糖尿 病 前 期 ” borderline diabetes? 拆 您 ， 您 患 有 前 期 糖尿 病 或 血糖 边缘 升 高 ? 
吸烟 情况 Do you now smoke cigarettes every day，some days， 您 现在 是 否 每 天 吸烟 ,偶尔 吸烟 ,还 是 从 不 抽烟 =0， 已 经 戒烟 =1， 现 在 偶尔 抽烟 =2， 
or not at all? 根本 不 吸烟 ? 现在 每 天 抽烟 =3 
过 去 30 天 内 是 否 During the past 30 days, on the days when you drank, 在 过 去 的 30 天 里 ， 您 喝酒 的 日 子平 均 0d-0, > 1 d=1 
至 少 喝 过 一 次 酒 about how many drinks did you drink on the average? 每 天 喝 多 少 杯 ? 
是 否 为 重度 Heavy drinkers ( adult men having more than 14 成 年 男性 每 周 饮酒 超过 14 杯 ， 成 年 女性 $i -0, EE 
饮酒 者 drinks per week and adult women having more 每 周 饮酒 超过 7 杯 
than 7 drinks per week ) 
是 否 为 柄 酒 者 Binge drinkers ( males having five or more drinks on 男性 一 次 性 饮酒 5 杯 或 以 上 ， 女 性 一 次 性 fi -0, 是 =1 
one occasion, females having four or more drinks on one 饮酒 4 杯 或 以 上 
occasion ) 
过 去 30 天 内 During the past month, other than your regular job, 在 过 去 的 一 个 月 中 ， 除 了 您 的 常规 工作 全 0 本 是 三 | 
是 否 有 体育 锻炼 did you participate in any physical activities or exercises 外 ， 您 是 否 参加 过 跑步 、 健 身 操 、 高 尔 
such as running, calisthenics, golf, gardening, 夫 、 园 艺 或 散步 等 体育 活动 或 锻炼 ? 
or walking for exercise? 
心理 健康 状况 Now thinking about your mental health, whichincludes 现在 让 我 们 来 谈 谈 您 的 心理 健康 ， 包 括 非常 好 (0d) =1, 好 (1-7d) 2, 一般 (8-14d) =3， 


自我 健康 评价 
BMI 


是 否 为 CHD 


stress，depression，and problems with emotions， 
for how many days during the past 30 days was 
your mental health not good? 


Would you say that in general your health is? 
About how much do you weigh without shoes? 
About how tall are you ? 


(Evertold) (youhad ) coronary heart disease? 


压力 、 抑 郁 以 及 情绪 问题 ， 在 过 去 30d 里 ， 
有 多 少 天 您 的 心理 健康 状况 不 佳 


您 认为 您 的 总 体 健 
您 不 穿 鞋 时 ， 您 的 体重 


Prts 


您 的 身高 是 多 少 ? 


医生 、 
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告诉 您 ， 您 患 有 冠 心病 ? 


下 状况 如 何 ? 
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不 好 (15-21 d) =4， 非 常 不 好 (22-30 d) =5 
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Table 2 Sociodemographic characteristics of participants in the coronary 


and non-coronary groups 


CRM P cad 2 
项 目 d EUN 
年 龄 [ 例 (%) ] 1279.863 «0.001 
45-54 岁 17705(17.3) 697 (6.7) 
55-64 岁 27109(26.5) 2082 (20.0) 
三 65 岁 57 403 ( 56.2) 7610 (73.3) 
TER [48] C96). ] 815.090 «0.001 
男 42771(41.8) 5860 (564) 
女 59446(58.2) 4529 (43.6) 
种 族 [f (o5) ] 246.436 «0.001 
白人 79561(77.8) 8619 (83.0) 
黑人 8837 (8.6) 685 (6.6) 
亚洲 人 1377 (1.3) 74 (0.7) 
美 印 第 安 人 2045 (2.0) 206 (2.0) 
tip 7440 (7.3) 439 (42) 
其 他 2957 (2.9) 366 (3.5) 
婚姻 状态 [ 例 C96) ] 9.609 — 0.002 
ES 54208(53.0) 5675 (54.6) 
已 婚 48 009(47.0) 4714 (45.4) 
教育 水 平 [ 例 (%) ] 113.105 «0.001 
初中 及 以 下 6990 (6.8) 881 (8.5) 
高 中 31914(31.2) 3497 (33.7) 
上 过 大 学 或 技 32410(31.7) 3318 (31.9) 
RERE ( 没 毕业 ) 
大 学 或 技术 学 30903(30.2) 2693 (25.9) 
校 毕业 
收入 水 平 [ 例 (%)] 405.507 «0.001 
«15 000 3&76 4078 (4.0) | 476 (4.6) 
z 15000 5448 (5.3) 788 (7.6) 
«25 000 3&7 
z 25000 6821(67) | 906 (87) 
«35 000 XIL 
z 35000 9694(9.5) 1277 (123) 
«50 000 美元 
z 50000 20512(20.1) 2237 (21.5) 
«100 000 美元 
z 100000 H. 24461(23.9) 2234 (21.5) 
«200 000 美元 
= 2000003&756 —31203(30.5) 2471 (23.8) 
家 里 有 几 个 孩子 [ 例 (%) ] 230.841 «0.001 
0 个 90278(88.3) 9685 (93.2) 
1 个 6624 (6.5) 405 (3.9) 
2 个 3432(34) 178 (17) 
3 个 1269 (12) 76 (0.7) 
三 4 个 614 (0.6) 45 (0.4) 
是 否 租房 [ 例 (%) ] 0.0047 0.828 
十 TC TY) 8095 (77.9) 
是 22476(22.0) 2294 (22.1) 
是 否 被 告知 患 高 血压 [ 例 (%) ] 2630.292 <0.001 
f? 47 417 (46.4) 2096 (202) 
是 54800(53.6) 8293 (79.8 ) 
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(BER 2) 
非 冠 心病 组 。” 冠 心病 组 
项 目 (n-112606)  (n-11261) 
是 否 被 告知 患 妊 娠 高 血压 [ 例 (%) ] 


100 969 ( 99.6 ) 10 334( 99.8 ) 
1248 (0.4) 55 (0.2) 

FERIA] [49] (96) ] 

101 801 ( 98.8 ) 10 364( 99.5 ) 
416 (1.2) 25 (0.5) 

否 在 服用 高 血压 药物 [ 例 (%) ] 

95 954 ( 93.9) 9899 (95.3) 


EE 
ni 
E: 
E 
一 
bui 
E 


Ru 


6263 (6.1) | 490 (47) 
是 否 被 告知 患 有 高 血脂 [ 例 (%) ] 


53563(52.4) 2971 (28.6) 
48654(47.6) 7418 (71.4) 
被 告知 患 有 糖尿 病 [ 例 (%) ] 

81820(80.0) 6387 (61.5) 


RS 
GEXTILLLLLE Emm 
| E | 


m 


pin 
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是 20397(20.0) 4002 (38.5) 
是 否 被 告知 处 于 糖尿 病 前 期 [ 例 Coe) ] 

f? 99015(96.9) 10055(96.8 ) 

是 Sp) AIH) 
抽烟 情况 [ 例 (%) ] 

从 不 抽 炬 53198(52.0) 3999 (38.5) 

CAIA 33 232 (32.5) 4724 (45.5) 

现在 偶尔 抽烟 3904(3.8) 412 (4.0) 

现在 每 天 抽烟 11883(11.6) 1254 (12.1) 
过 去 30 d 内 是 否 至 少 喝 过 1 次 酒 [ 例 (%) ] 


59061(57.8) 6841 (65.8) 

43156(42.2) 3548 (342) 
为 重度 饮酒 者 [ 例 (%) ] 

97308(95.2) 10 076( 97.0 ) 

4909 (4.8) 313 (3.0) 
为 醒酒 者 [ 例 (%) ] 

93 784 (91.7) 9843 (947) 


pin 


pin 
D Wr onm m mi nm zi cma mu om 


8433(83) 546 (53) 
过 去 30 d 内 是 否 有 体育 锻炼 [ 例 (%) ] 
31781(31.1) 4282 (41.2) 
是 70436(68.9) 6107 (58.8) 
心理 健康 状况 
非常 不 好 6443 (630) 1028 (9.9) 
不 好 902 (0.9) [2 (C122 ) 
一 般 59S C59) W CET) 
好 4943 (48) | 553 (53) 
非常 好 84653(82.8) 7980 (76.8) 
自我 健康 评价 [ 例 (%) ] 
非常 不 好 5500 (5.4) 1973 (19.0) 
不 好 17252(16.9) 3339 (32.1) 
一 般 36093(35.3) 3334 (32.1) 
好 31637(31.0) 1469( 14.10) 
非常 好 11735(11.5) 274 (2.6) 
BMI 水 平 29.2157 £6.72 30.07 + 6.78 
(T+s, kg/m ) 


"表示 1 值 。 


x^ (GJ 
值 


39.430 
6.689 
33.288 
2 137.430 
1 915.413 
0.210 


813.007 


232:925 
68.305 
115.244 

444.098 


285.921 


5459.580 


-12.195* 


«0.001 


0.010 


«0.001 


«0.001 


«0.001 


0.646 


«0.001 


«0.001 


«0.001 


«0.001 


«0.001 


«0.001 


«0.001 


«0.001 
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告知 患 高 血压 、 是 否 被 告知 患处 于 高 血压 前 期 、 是 否 被 
告知 患 妊 娠 高 血压 、 现 在 是 否 在 服用 高 血压 药物 、 是 否 
被 告知 患 有 高 血脂 、 是 否 被 告知 有 糖尿 病 、 抽 烟 情况 、 
过 去 30 d 内 是 否 至 少 喝 过 1 次 酒 、 是 否 为 重度 饮酒 者 、 
是 否 为 醒酒 者 以 及 自我 健康 评价 为 冠 心病 的 影响 因素 
(P<0.05， 见 表 3 ) 。 
2.3 ” 冠 心病 预测 模型 结果 分 析 

本 研究 采用 随机 抽样 方法 ， 从 112 606 名 受 访 者 中 
选取 了 10% (Hl 11 261 名) 的 样本 ， 以 构建 代表 性 的 
训练 集 和 测试 集 。 对 比 总 体 样 本 (n=112 606 ) 与 随机 
抽取 的 样本 (n=11 261) 在 预测 模型 的 17 个 变量 上 的 
差异 ， 结 果 显 示 差 异 无 统计 学 意义 (P>0.05 ) ， 详 见 
表 4。 上 此外， 按照 8: 2 的 比例 将 数据 随机 抽取 样本 分 
为 训练 集 (80%) 和 测试 集 (20%) ， 并 对 训练 集 样本 
(n=9 009 ) 与 测试 集 样本 (n=2 252 ) 在 预测 模型 的 17 
个 变量 上 进行 比较 ,结果 显示 差异 不 具有 统计 学 意义 
(P»0.05) ， 详 见 表 5。 分 别 利用 5 种 算法 对 原始 数据 
集 和 平衡 后 的 数据 集 构建 CHD 预测 模型 ， 预 测 模型 的 
总 体 分 类 精度 、 精 确 度 、 召 回 率 、 下 值 见 表 6。 在 不 平 
衡 数据 集中 使 用 机 器 学 习 方 法 建 模 后 ， 测 试 集中 预测 
模型 的 召回 率 、 精 确 度 、F 值 较 低 。 相 比 之 下 ， 经 过 数 
据 平 衡 处 理 后 ， 机 器 学 习 方 法 建立 模型 的 整体 效能 提 
高 ， 尤 其 是 对 于 阳性 样本 的 分 类 正确 率 。 在 采用 Rand- 
Oversample 和 SMOTE 过 采样 方法 训练 的 五 种 算法 中 ， 
XGBoost 模型 在 预测 CHD 方面 表现 最 出 色 ， 其 测试 集 
的 AUC 值 达到 0.83。 其 次 是 KNN 模型 ， 测 试 集中 AUC 
为 0.80。 在 测试 集中 ， 除 支持 向 量 机 模型 与 决策 树 模 型 
在 预测 CHD 风险 方面 表现 较 差 ，AUC DON 0.72 外 ， 其 
余 几 种 机 器 学 习 算 法 建立 的 CHD 预测 模型 的 效能 均 较 
佳 。 两 种 不 同 过 采样 的 方法 下 的 各 个 模型 的 测试 集 工作 
特征 曲线 如 下 图 1 和 图 2 所 示 。 


3 讨论 


本 研究 探索 了 多 种 冠 心病 发 病 的 影响 因素 ， 通 过 使 
用 随机 过 采样 和 SMOTE 两 种 数据 平衡 方法 ， 建 立 了 基 
于 5 种 不 同 算法 的 冠 心病 风险 预测 模型 ， 并 对 其 预测 价 
值 进 行 了 比较 。 结 果 表 明 ， 数 据 平 衡 显著 提升 了 模型 的 
性 能 ， 尤 其 是 XGBoost 模型 在 总 体 分 类 精度 、 召 回 率 、 
Ta HE. FEM AUC 值 方面 的 表现 均 优 于 其 他 模型 ， 
显示 出 其 在 冠 心病 风险 预测 上 的 强大 潜力 。 
31 冠 心病 发 病 的 影响 因素 

本 研究 结果 确认 了 已 知 的 冠 心病 风险 因素 , 如 年 龄 、 
性 别 、 高 血压 、 高 血脂 、 糖 尿 病 和 吸烟 等 。 但 更 重要 的 
是 发 现 自我 健康 评价 水 平 、 收 入 水 平和 教育 水 平 是 冠 心 
病 的 潜在 影响 因素 。 其 中 ， 自 我 健康 评价 和 收入 水 平 对 
冠 心病 发 病 的 影响 与 OLUSOLA 45 5! fff HEMINGWAY 
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表 3 Logistic 回归 分 析 结 果 


Table 3 Results of Logistic regression analysis 


变量 B SE Wady fü P 值 OR (95%CI) 

年 龄 ( 以 45-54 岁 为 参照 ) 

55-64 岁 0.374 0.047 — 64.20 — «0.001. 1.454( 1.327-1.594 
2657 0.887 0.044 412301 «0.001 2428( 2231-2647 
性 别 ( 以 男 为 参照 ) 

女 -0.554 0.003 600.886 — «0.001 0.575(0.550-0.601 
种 族 ( 以 白人 为 参照 ) 

黑人 -0.475 0.044 118.304 <0.001 0.622( 0.570-0.677 
亚洲 人 -0.581 0.125 — 21.619 — «0.001 0.559(0.434-0.709 
美 印第安 人 -0.106 0.079 — 1.807 0.179 0.900( 0.769~1.047 
BIS -0.572 0.055 110.131 «0.001. 0.564 ( 0.507-0.627 
其 他 0.051 0.061 — 0.604 — 0405 1.052(0.933-1.183 
教育 水 平 ( 以 初中 及 以 下 为 参照 ) 

高 0.009 0.044 0.815 — 0367 1.040(0.955-1.134 
上 过 大 学 或 技术 学 校 0.11 0044 6134 0013 1.116(0.955-1.219 
( 没 毕业 ) 

大 学 或 技术 学 校 毕 业 0.142 0.047 9216 — 0.002 1.152( 1.052~1.263 
收入 水 平 ( 以 «15 000 美元 为 参照 ) 


> 15000 H <25000 7t 0.027 0.065 — 0.175 0.676 1.028( 1.052~1.169 


> 25000 H <35000 7G 0.007 0.064 0.012 0.912 1.007(0.889~1.142 


( 
( 
2 35000 H «500003576 — 0.045 0.061 — 0.549 — 0.459 1.046(0.929-1.142 
( 
( 
( 


= 50000 H «1000003576 -0.048 0.058 — 0.603 — 0405 0.953(0.851-1.142 
z 100000 H «20000035756 -0.134 0.058 — 5240 0.022 0.875(0.781-0.982 


> 200 000 -0.115 0.059 — 3.819 — 0.051 0.891(0.795-.1.001 
是 否 被 告知 患 高 血压 ( 以 否 为 参照 ) 

是 0.751 0.028 729.208 <0.001 2.118(2.006~2.237 
是 否 被 告知 处 于 高 血压 前 期 血压 ( 以 否 为 参照 ) 

是 0427 0214 3.986 0.046 1.532(2.006-2.282 
现在 是 否 在 服用 高 血压 药物 C 以 否 为 参照 ) 

是 -0482 0.051 90.103 — «0.001 0.617( 0.558-0.681 
是 否 被 告知 患 有 高 血脂 ( 以 否 为 参照 ) 

是 0.622 0.024 668.066 <0.001 1.863(1.778~1.954 
是 否 被 告知 患 有 糖尿 病 ( 以 否 为 参照 ) 

是 0.327 0.024 180.769 <0.001 1.387( 1.322~1.455 
抽烟 情况 ( 以 从 不 抽烟 为 参照 ) 

已 经 戒烟 0.342 0.024 197.654 — «0.001 1.408( 1.342~1.477 

Jute BAR 0.234 0.058 — 16.079 — «0.001 1.264( 1.126-1.416 

六 在 每 天 抽烟 0.194 0.038 26.602 <0.001 1.214( 1.127-1.306 
过 去 30 d 内 是 否 至 少 喝 过 一 次 酒 ( 以 否 为 参照 ) 

是 -0.096 0.025 14.464 <0.001 0.908(0.864~0.954 
是 否 为 重度 饮酒 者 ( 以 否 为 参照 ) 

是 -0.191 007 7.405 0.007 0.826(0.719~0.954 
是 否 为 柄 酒 者 ( 以 否 为 参照 ) 

是 -0.197 0.056 — 12454 <0.001 0.821(0.719~0.915 


自我 健康 评价 ( 以 非常 不 好 为 参照 ) 


不 好 -0.546 0.034 255.323 «0.001 0.579(0.719~0.915 
一 般 -1.215 0.035 1238.794 <0.001 0.297(0.277-0.318 
好 -1.758 0.041 1840.236 <0.001 0.172(0.159-0.187 
非常 好 -2.185 0.07 987.994 «0.001 0.112(0.159-0.129 
BMI 水 平 (kg ) -0.006 0.002 — 12.195 — «0.001 0.994( 0.991~0.997 
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Table 4 Comparison of general information between the overall sample and 


random sample 


项 目 


总 样本 


(n=112606)  (n-11 261 


x (Gf Pfü 


年 龄 [ 例 (%) ] 
45-54 岁 
55-64 岁 
三 65 岁 

性 别 [ 例 (%) ] 
男 
di 

种 族 [ 例 (%) ] 

白人 


亚洲 人 
美 印 第 安 人 
m 

其 他 


AX 


教育 水 平 [ 例 (% ) ] 
初中 及 以 下 


高 中 


上 过 大 学 或 技术 
学 校 ( 没 毕业 ) 
大 学 或 技术 
学 校 毕业 

收入 水 平 [ 例 (% ) ] 


<15 000 美元 
= 15 000 H. 


<25 000 美元 
z25000H 


«35 000 美元 
= 35 000 H. 


<50 000 美元 


= 50 000 H. 
«100 000 美元 


z 100000 
«200 000 美元 


z 200000 美元 


高 血压 [ 例 ( 和 %) ] 


65013 (57.7) 
18402 (16.3) 
29 191 (25.9) 


6504 
1 848 
2 909 


57.8) 
16.4 ) 
25.9) 


43.5) 
56.5) 


48 631 ( 43.2) 
63 975 ( 56.8) 


4 904 
6 357 


88 180 (78.3) 
9522 (8.5) 
1451 (1.3) 
2251 (2.0) 
7879 (7.0) 
3323 (3.0) 


8 783( 78.0) 
942 (8.4) 
168 ( 1.5) 
238 (2.1) 
789 (7.0) 
341 (3.0) 


798 (7.1) 
SPO) 
3628(31.2) 


787 (7.0) 
35411 (31.4) 
35728 (31.7) 


33596 (29.8) 3313(294) 


4554 (4.0) 
6236 (5.5) 


479 (43) 
626 ( 5.6) 


7727 (6.9) | 758 (6.9) 


10971 (9.7) 1097 (9.7) 


22749 (20.2) 2211(19.6) 


26695 (23.7) 2756(24.5) 


33674 (29.9) 3334(29.6) 


43.7 ) 
56.3) 


49513 (44.0) 4921 
63093 (56.0) 6340 


是 否 被 告知 患处 于 高 血压 前 期 [ 例 (%) ] 


112165(99.6) 11212(99.6) 
441 (0.4) 49 (0.4) 


1 压 药 物 A (96) ] 


105 853( 94.0 ) 10 580( 94.0) 
6753 (6.0) 681 (6.0) 


脂 [ 例 (%) ] 


56534 (50.2) 5669(50.3) 
56072 (49.8) 5592(49.7) 


0.063 


0.546 


4.341 


1.593 


5.847 


0.304 


0.492 


0.046 


0.077 


0.969 


0.460 


0.501 


0.661 


0.440 


0.581 


0.483 


0.830 


0.782 
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(BER A) 
HE m oh eR E 
是 否 被 告知 患 有 糖尿 病 [ 例 (%) ] 0.724 0.395 
T 88 207 (78.3) 8860(78.7) 
是 24399 (21.7) 2401(21.3) 
抽烟 情况 L 例 ( % ) ] 6211 0.102 
从 不 抽烟 57197 (50.8) 5745(51.0) 
已 经 戒烟 37956 (33.7) 3856(342) 
现在 偶尔 抽烟 4316 (3.8) 433 (3.8) 
现在 每 天 抽烟 。 13137 (11.7) 1227(10.9) 
过 去 30 天 内 是 否 至 少 喝 过 一 次 酒 [ 例 (%) ] 0.051 0.821 
ffi 65902 (58.5) 6578(58.4) 
是 46 704 (41.5) 4683(41.6) 
是 否 为 重度 饮酒 者 [ 例 (%) ] 0.019 — 0.891 
f? 107 384( 95.4) 10742(95.4) 
是 5222(4.6) 519 (4.6) 
是 否 为 醒酒 者 [ 例 (%) ] 0.072 0.789 
ffi 103 627( 92.0 ) 10355(92.0) 
是 8979 (8.0) 906(8.0) 
自我 健康 评价 [ 例 (%) ] 1.938 0.747 
非常 不 好 7473 (6.6) 749 (6.7) 
不 好 20591 (18.3) 2044( 18.2) 
一 般 39427 (35.0) 3917(34.8) 
好 33106 (29.4) 3376(30.0) 
非常 好 12009 (10.7) 1175(10.4) 
BMI 水 平 29.29+6.73 ”29.33+6.74  -0.673 0.779 
(Xxs, kg/m ) 
注 :“ 表 示 1 值 。 
等 ”的 研究 结果 相同 。 尽 管 自我 健康 评价 是 主观 的 评 


价 指标 ， 但 在 流行 病 学 和 健康 经 济 学 研究 中 ， 此 指标 已 
被 证 实 与 死亡 率 、 住 院 率 及 慢性 病 发 病 率 等 客观 健康 指 
标 密切 相关 。 例 如 ，DESALVO 的 研究 发 现 ， 自 我 健康 


评价 与 死亡 风险 之 间 存 在 显著 关系 ， 即 使 在 控制 


了 其 他 


健康 指标 后 ， 这 种 关系 仍然 存在 "2 。MAVADDAT 的 
系统 综述 中 也 发 现 ， 在 既往 有 和 没有 心血 管 疾病 的 人 群 
中 ， 自 评 健康 状况 不 佳 都 与 心血 管 死亡 率 有 关 '”"  。 因 
此 ， 自 我 健康 评价 在 个 体 冠 心病 风险 的 预测 中 具有 不 容 
忽视 的 价值 。 然 而 ， 考 虑 到 自我 健康 评价 可 能 受到 个 人 
主观 感受 的 影响 ， 存 在 一 定 程度 的 主观 偏差 ， 在 应 用 这 


一 指标 时 应 保持 谨慎 。 教 育 水 平 与 TAAVI 等 ” 


结果 相反 ， 这 可 能 是 因为 教 


的 研究 


涌水 平 高 的 人 虽然 健康 意识 


更 高 ， 但 其 职业 压力 和 不 健康 的 饮食 习惯 更 多 ， 这 一 定 


程度 上 也 会 增加 冠 心病 的 风险 。 此 外 ， 本 研究 发 现 患 


妊娠 高 血压 或 糖尿 病 前 期 并 不 能 增加 患 玩 必 病 的 风险 。 
这 与 当前 许多 研究 结果 不 一 致 ， 如 妊 垦 高 血压 以 及 


糖尿 病 前 期 ” 与 冠 心 病 有 关 的 研究 结果 。 但 是 ， 


本 研 
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Table 5 Comparison of general information between the training set and 


test set samples 


训练 集 样本 与 测试 集 样本 基本 特 生 


E 比 较 


FH di EU S T 
年 龄 [ 例 (%) ] 0.901 ”0.637 
45-54 岁 5184(57.5) 1320 (58.6) 
55-64 7 1489(16.5) 359 (15.9) 
2652 1489(25.9) 359 (254) 
性 别 [ 例 (%) ] 0.063 0.802 
5 5091(56.5) 1266 (562) 
pa 3918(43.5) 986 (43.8) 
TE LB Co) ] 4.90 0.522 
白人 7032(78.1) 1751 (77.8) 
黑人 741 (8.2) 201 (8.9) 
亚洲 人 136 (1.5)  32(14) 
美 印第安 人 200 (2.2) 38(1.7) 
AI 624(69) 165 (73) 
其 他 276 (3.1) 65 (2.9) 
育 水 平 [ 例 (%) ] 0.900 0.993 
初中 及 以 下 641 C7 157 (7.0) 
高 中 2819(31.3) 703 (312) 
上 过 大 学 或 技术 21898 (3212) 730 (324) 
学 校 ( 没 毕业 ) 
大 学 或 技术 学 校 毕业 2 651( 29.4) 662 (29.4) 
收入 水 平 [ 例 (%) ] 6.916 — 0.329 
«15 000 美元 389 (4.3) 90 (4.0) 
= 15 000 H 522 (5.8) 104 (4.6) 
<25 000 美元 
= 25 000 H 598 (6.6) 160 (7.1) 
«35 000 美元 
= 35000 H 862 (9.6) 235 (10.4) 
«50 000 美元 
= 50000 H 1767(19.6) 444 (19.7) 
«100 000 美元 
z 100000 H 2206(24.5) 550 (244) 
«200 000 美元 
= 200 000 美元 2665(29.6) 669 (29.7) 
是 否 被 告知 患 高 血压 [ 例 (%) ] 0.187 0.665 
T 3 946( 43.8) 975 (43.3) 
是 5063(56.2) 1277 (56.7) 
是 否 被 告知 患处 于 高 血压 前 期 [ 例 (%) ] 0.001 0.969 
f? 8876(98.5) 2219 (98.5) 
是 133(15)  33(15) 
现在 是 否 在 服用 高 血压 药物 [ 例 ( % ) ] 1223 0269 
e 8 453( 93.8) 2127 (944) 
是 SE laD 56) 
是 否 被 告知 患 有 高 血脂 [ 例 (%) ] 0.393 0.531 
T 4522( 50.2) 1147 (50.9) 
是 4487(49.8) 1105 (49.1) 
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(ER 5) 
EH dm uU 
是 否 被 告知 患 有 糖尿 病 [ 例 (%) ] 0.259 0.611 
f 7097(78.8) 1763 (78.3) 
是 1912(21.2) 489 (21.7) 
抽烟 情况 [ 例 (%) ] 6.129 — 0.106 
从 不 抽烟 4549(50.5) 1196 (53.1) 
已 经 戒烟 3131(34.8) 725 (322) 
PUE (HS AK UAI 343(3.8)  90(4)0) 
现在 每 天 抽烟 986 (10.9) 241 (10.7) 
过 去 30 d 内 是 否 至 少 喝 过 1 次 酒 [ 例 (%) ] 0.046 — 0.830 
T 5267(58.5) 1311 (58.2) 
是 3742(41.5) 941 (41.8) 
是 否 为 重度 饮酒 者 [ 例 (%) ] 0.062 — 0.804 
f? 8596(95.4) 2146 (95.3) 
是 413 (4.6) 106 (47) 
是 否 为 醒酒 者 [ 例 ( % ) ] 0.011 — 0.918 
f 8283(91.9) 2072 (92.0) 
是 726 (8.1) 180 (8.0) 
自我 健康 评价 [ 例 ( % ) ] 3.294 0.510 
非常 不 好 616 (68)  133(5.9) 
不 好 1626(18.0) 418 (18.6) 
一 般 3126(34.7) 791 (35.1) 
好 2710(30.1) 666 (29.6) 
非常 好 931 (10.3) 244 (10.8) 
BMI 水 平 29.35 +6.78 29.28+6.49 0.428" 0.668 


(Zs, kg/m ) 


表 6 


:“ 表 示 BL 


冠 心病 风险 预测 模型 的 预测 效能 指标 
Table 6 Indicators of predictive efficacy for the model predicting the risk 


of coronary heart disease 


总 体 分 类 精度 召回 率 ”精确 度 rd 


[3 
SMOTE 
KNN 0.592 
逻辑 回归 0.674 
支持 向 量 机 0.662 
决策 树 0.692 
XGBoost 0.859 
Random over-sampling 
KNN 0.625 
逻辑 回归 0.685 
支持 向 量 机 0.69 
决策 树 0.602 
XGBoost 0.701 
Unbalanced 
KNN 0.907 
逻辑 回归 0.907 
支持 向 量 机 0.907 
决策 树 0.907 
XGBoost 0.908 


ik: AUC- E 


0.752 
0.714 
0.705 
0.629 
0.348 


0.700 
0.695 
0.719 
0.690 
0.676 


I c E 


0 
0.029 


0.154 
0.182 
0.175 
0.176 
0.287 


0.158 
0.184 
0.191 
0.148 
0.190 


NaN 
NaN 
NaN 
NaN 
0.600 


试 者 工作 特征 曲线 下 面积 。 


0.256 
0.290 
0.280 
0.275 
SIS 


0.258 
0.291 
0.302 
0.244 
0.297 


NaN 
NaN 
NaN 
NaN 
0.055 


AUC 


0.800 
0.770 
0.720 
0.720 
0.830 


0.800 
0.780 
0.720 
0.720 
0.820 


NaN 
NaN 
NaN 
NaN 
NaN 
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0 0.2 0.4 0.6 0.8 1.0 
1- 特异 度 
Eli 基于 机 器 学 习 模 型 的 测试 集 工 作 特 征 曲线 〈 随机 过 采样 后 ) 
Figure 1 Working feature curve of the test set using a machine learning 


model with random oversampling 


1.0 


0.8 r 


0.6 | 
En | 
s 
E mi 

oal 一 KNN 模型 

一 逻辑 回归 模型 
| ft = -一 SVM 模型 
02 Ls - 一 决策 树 模型 
; — XGBOOST 模型 
0 0.2 0.4 0.6 0.8 1.0 


1- 特异 度 
图 2 基于 机 器 学 习 模 型 的 测试 集 工 作 特征 曲线 (合成 少数 过 采样 后 ) 


Figure 2 Working feature curve of the test set using a machine learning 


model with SMOTE oversampling 


究 结 果 与 OHSAK 45 5^ 关于 高 血压 前 期 与 心 脑 血管 疾 
病 的 关系 研究 结果 一 致 。 同 时 ， 当 前 服用 高 血压 药物 能 
够 降低 冠 心 病 的 发 病 风险 ， 这 与 CORRAO 等 的 研 
究 结果 一 致 。 无 论 是 已 经 戒烟 、 现 在 偶尔 抽烟 还 是 现在 
每 天 抽烟 都 能 够 显著 增加 患 冠 心病 的 风险 ， 并 且 已 经 戒 
烟 的 人 群 中 患 冠 心 病 的 风险 更 高 ， 与 相关 研究 一 致 ”1。 
关于 喝酒 对 冠 心 病 的 影响 ， 本 研究 发 现 过 去 30 d 内 至 
少 喝 过 一 次 、 重 度 饮 酒 以 及 醒酒 都 能 显著 降低 冠 心病 的 
发 病 风险 ， 目 前 比较 的 成 熟 的 研究 表明 平均 饮酒 量 对 冠 
心病 的 影响 是 型 ， 轻 度 至 中 度 饮酒 者 的 冠 心病 发 病 风 
险 比 戒 酒 者 低 , 但 重度 饮酒 者 中 的 冠 心 病 风险 最 高 '*1， 
此 外 ，ZHAO 等 .的 研究 也 证 实 与 不 饮酒 者 相 比 ， 轻 
度 至 中 度 饮酒 者 能 够 显著 降低 心血 管 疾病 的 死亡 率 。 
3.2” 冠 心病 风险 预测 模型 
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本 研究 结果 表明 在 经 过 不 平衡 数据 的 处 理 后 ,5 
种 算法 在 准确 率 和 稳定 性 方面 都 有 了 显著 提高 ， 其 中 
XGBoost 模 型 对 CHD 的 预测 效能 最 佳 ,这 与 ZHANG 等 ?1 
在 冠状 动脉 疾病 风险 预测 模型 构建 中 得 到 的 结论 一 致 ， 
而 支持 向 量 机 模型 与 决策 树 模 型 在 预测 CHD 风险 方面 
表现 较 差 。 为 相 比 其 他 四 种 机 需 学 习 方 法 ，XGBoost 
采用 了 更 为 优秀 的 树 结构 优化 方法 ， 例 如 叶子 节点 权重 
缩减 等 。 此 外 ， 在 每 次 训练 模型 时 ，XGBoost 还 会 
对 模型 进行 正则 化 ， 以 避免 过 拟 合 ， 并 且 使 用 了 一 种 经 
过 优化 的 目标 函数 , 这 能 够 更 有 效 地 控制 决策 树 的 生成 ， 
从 而 提高 模型 的 精度 "1 。 此 外 ，XGBoost 在 训练 过 程 
中 还 能 够 对 特征 进行 子 采样 并 且 还 支持 并 行 计算 ， 能 够 
利用 多 核 中 央 处 理 机 和 分 布 式 环境 加 速 模 型 训练 '*] 。 
在 模型 的 总 体 分 类 精度 表现 方面 k 最 邻近 算法 得 分 较 
低 ， 这 与 HASSAN $E OH 的 研究 结果 一 致 ， 但 其 简单 
性 和 易于 实现 可 能 在 某 些 情况 下 具有 优势 "5 ， 虽 然 决 
策 树 算 法 的 准确 率 略 低 ， 但 其 是 一 种 成 熟 的 算法 ， 在 
KIM 45 C! 的 研究 发 现 决策 树 算 法 在 冠 心病 风险 预测 表 
现 较 好 ， 本 研究 结果 与 其 不 一 致 的 原因 可 能 是 决策 树 
算法 对 输入 数据 的 微小 变化 很 敏感 ， 这 可 能 导致 树 结 
构 和 预测 结果 发 生 很 大 变化 并 且 进 一 步 降低 CHD 风险 
预测 模型 的 稳定 性 ， 从 而 导致 准确 性 降低 。 支 持 向 
量 机 算法 在 精准 度 、 召 回 率 和 了 1 评分 方面 表现 良好 ， 
GARAVAND 等 '” 在 使 用 多 种 机 器 学 习 方 法 构建 冠 心 
病 的 诊断 模型 中 也 得 到 相同 的 结论 ， 可 见 使 用 支持 向 量 
机 算法 构建 的 预测 模型 可 以 有 效 降低 疾病 诊断 的 假 阳性 
率 。 逻 辑 回 归 在 精度 和 稳定 性 方面 表现 出 良好 的 性 能 ， 
所 以 在 可 成 为 大 规模 人 群 预测 模型 研究 的 最 佳 选 择 。 虽 
然 XGBoost 是 五 种 算法 中 冠 心病 风险 预测 的 最 佳 算法 ， 
但 算法 的 选择 将 取决 于 预测 任务 的 具体 要 求 ， 其 较 低 的 
召回 率 表示 在 实际 使 用 的 过 程 中 可 能 无 法 筛 查 出 阳性 。 
一 般 来 说 ， 算 法 的 性 能 受到 数据 集 的 大 小 和 质量 以 及 使 
用 的 预测 变量 的 数量 的 影响 *“ 。 本 研究 强调 了 不 同 算 
法 在 冠 心病 风险 预测 中 的 优势 和 劣势 ， 未 来 计划 扩展 研 
究 ， 包 括 更 多 的 算法 和 更 大 的 数据 集 ， 以 更 好 地 评估 这 
些 算法 的 性 能 。 
3.3 ”研究 优点 和 局 限 性 

本 研究 的 一 个 显著 特点 是 采用 了 先进 的 数据 平衡 技 
术 ， 并 探索 了 多 种 机 器 学 习 算 法 在 处 理 冠 心病 数据 时 的 
效能 。 优 化 后 的 XGBoost 模型 不 仅 性 能 出 色 ， 且 考虑 到 
其 与 逐步 Logistic 回归 分 析 的 综合 应 用 ， 为 临床 实践 提 
供 了 更 高 的 可 行 性 和 准确 性 。 此 外 本 次 研究 有 模型 输入 
变量 都 来 自 于 自我 报告 ， 所 以 具有 可 及 性 极 高 、 数 据 信 
噪 比 较 低 以 及 贴近 实际 应 用 场景 等 优势 。 然 而 ， 本 研究 
的 方法 也 存在 一 定 的 局 限 性 。 首 先 由 于 机 器 学 习 模 型 的 
构建 基于 逻辑 回归 筛选 后 的 变量 ， 可 能 忽略 了 一 些 未 被 
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初步 选中 但 实际 上 对 疾病 预测 有 潜在 价值 的 变量 。 其 
次 本 文 的 研究 数据 来 源 自 美国 人 群 自 我 报告 的 横断 面 
BRFSS 数据 库 ， 数 据 的 可 获取 性 和 实际 应 用 场景 的 贴近 
性 是 其 优势 所 在 。 然 而 ， 此 类 数据 可 能 受到 回忆 偏差 的 
影响 ， 且 横断 面 研究 的 设计 限制 了 对 因果 关系 的 探讨 ， 
并 存在 结局 变量 影响 输入 变量 的 可 能 。 此 外 ， 研 究 中 仅 
考察 了 有 限 的 预测 模型 ， 并 未 包括 已 验证 有 效 的 其 他 模 
型 如 人 工 神经 网 络 ( Artificial Neural Network, ANN) 、 
随机 和 森林 和 朴素 贝 叶 斯 。 尽 管 有 研究 显示 CatBoost 和 
LightGBM 等 梯度 提升 模型 在 风险 预测 上 有 优秀 表现 ， 
BRRR ERN 。 


4 小 结 


在 处 理 不 平衡 数据 后 ，KNN、SVM、 决 策 树 、 逻 辑 
回归 和 XGBoost 这 五 种 机 器 学 习 算 法 在 预测 冠 心病 风险 
方面 的 性 能 可 以 显著 提高 ，XGBoost 是 这 五 种 算法 中 表 
现 最 佳 的 。 但 是 ,算法 的 选择 将 取决 于 预测 任务 的 具体 
要 求 ， 以 及 考虑 预测 准确 性 、 计 算 能 力 、 可 解释 性 和 运 
行 效率 等 方面 2 。 此 外 ， 虽 然 本 研究 所 采用 的 方法 论 
和 策略 在 其 他 人 和 群 中 具有 普 适 性 ， 但 特定 的 风险 预测 结 
果 并 不 适宜 直接 应 用 于 非 美国 地 区 。 未 来 的 研究 可 以 通 
过 纳入 更 广泛 的 预测 模型 和 多 元 化 的 数据 来 源 ， 来 提高 
模型 的 普 适 性 和 预测 的 精确 度 。 
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